Ajout de nouveaux noms propres au vocabulaire d'un système de transcription en utilisant un corpus diachronique

نویسندگان

  • Irina Illina
  • Dominique Fohr
  • Georges Linarès
چکیده

Proper names are usually keys to understand the information contained in a document. Our work focuses on increasing the vocabulary size of a speech transcription system by automatically retrieving proper names from contemporary diachronic text corpus. We assume that some proper names appear in documents relating to the same time period and in similar lexical contexts. We proposed methods that dynamically augment the automatic speech recognition system vocabulary using lexical and temporal features. Three proposed selection methods are based on co-occurrences statistics inside windows of fixed size, on mutual information and on vector space model. Different metrics for proper name selection in order to limit the vocabulary augmentation are studied. Recognition results show a significant reduction of the proper name error rate using augmented vocabulary with retrieved proper names. MOTS-CLÉS : reconnaissance de la parole, mots hors vocabulaire, noms propres, augmentation du vocabulaire.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Génération des prononciations de noms propres à l'aide des Champs Aléatoires Conditionnels (Pronunciation generation for proper names using Conditional Random Fields) [in French]

Dans cet article, nous proposons une approche de conversion graphème-phonème pour les noms propres. L'approche repose sur une méthode probabiliste : les Champs Aléatoires Conditionnels (Conditional Random Fields, CRF). Les CRFs donnent une prévision à long terme, n'exigent pas l'indépendance des observations et permettent l'intégration de tags. Dans nos travaux antérieurs, l'approche de convers...

متن کامل

Translation into French of: “Changes to publication requirements made at the XVIII International Botanical Congress in Melbourne – what does e-publication mean for you?”. Translated by Christian Feuillet and Valéry Malécot Changements des conditions requises pour la publication faits au XVIII e Congrès International de Botanique à Melbourne – qu’est-ce que la publication électronique représente pour vous?

RésuméLes changements au CodeInternational de Nomenclature Botanique sont décidés tous les 6 ans aux Sections de Nomenclature associées aux Congrès Internationaux de Botanique (CIB). Le XVIII(e) CIB se tenait à Melbourne, Australie; la Section de Nomenclature s'est réunie les 18-22 juillet 2011 et ses décisions ont été acceptées par le Congrès en session plénière le 30 juillet. Suite à cette ré...

متن کامل

Adaptation d'un système de reconnaissance d'entités nommées pour le français à l'anglais à moindre coût (Adapting a French Named Entity Recognition System to English with Minimal Costs) [in French]

RÉSUMÉ La portabilité entre les langues des systèmes de reconnaissance d’entités nommées est coûteuse en termes de temps et de connaissances linguistiques requises. L’adaptation des systèmes symboliques souffrent du coût de développement de nouveaux lexiques et de la mise à jour des règles contextuelles. D’un autre côté, l’adaptation des systèmes statistiques se heurtent au problème du coût de ...

متن کامل

Expansion de requêtes pour la recherche d'information multilingue

1. Recherche d'information multilingue : approche par traduction des contenus La quantité d'information en ligne croît très rapidement, ainsi que le nombre de langues dans lesquelles ces contenus sont disponibles. En revanche, la complexité des requêtes reste limitée (2 à 3 mots en moyenne). Des traitements spécifiques s'avèrent donc nécessaires pour préciser le sens de certaines requêtes, ou a...

متن کامل

Théories de l'intrus pour la vérification des protocoles cryptographiques. (Intruder theories for the verification of cryptographic protocols)

Je remercie aussi les différentes personnes qui ont soutenu (et soutiennent encore !) la vie du campus de l'École, parfois au détriment de leur scolarité, en s'investissant dans les associations et les clubs animant les soirées et les weekends : (par ordre alphabétique, j'espère ne pas avoir oublié trop de monde ou du moins, de ne pas avoir oublié de personnes ran-m'ont permis d'apprécier les a...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • TAL

دوره 55  شماره 

صفحات  -

تاریخ انتشار 2014